2010/10/28

名人傳記知多少

前一陣子在寫一篇關於貝氏定理的文章,剛好看到幾篇關於名人傳記的報導,覺得挺有意思的。有很多事情是早已知道的,像是幽靈寫手、吹牛澎風、記載不實等等,不過嚴格說來此乃人性,我相信沒有誰會想把自己的醜事昭告天下的。

一篇是南京日報的「市場寵兒 名人傳記出版亂象叢生」,裡面提到:
名人傳記近日又屢屢鬧出負面新聞:雇槍手、內容失實、沒有文學價值……《“壞小子”孫紅雷》等竟然是未經名人本人許可的“假冒產品”。
撇開傳記的真實性跟文學性不談,「冒名頂替」這件事情還真是沒聽說過。

什麼研究,研究什麼

根據維基百科:
研究research)」是主動和系統方式的過程,是為了發現、解釋或校正事實、事件、行為、或理論,或把這樣事實、法則或理論作出實際應用。「研究」一詞常用來描述關於某一特殊主題的資訊收集。
英文「研究(research)」源自中古法語,意思是徹底檢查。

2010/10/26

n-gram,語言,與其他符號

n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上。

馬可夫鏈與 n-gram

簡單的說,這個統計模型就是一種馬可夫模型Markov model)。好吧,我承認這樣講沒有比較簡單。馬可夫鏈,用白話說,就是同類型的事件(不同的狀態)依序發生的機率,舉例來說,假設天氣有三種狀態:「晴天」、「陰天」跟「雨天」。如果昨天是雨天,那麼今天是「雨天」的機率,會跟昨天是「晴天」而今天是「雨天」的機率有所不同,這是因為我們相信天氣現象在時間上有某種連續性,前面發生的狀態會影響到後面發生的狀態,而馬可夫模型就是描述這種前後關係的數學語言。